Détection de données aberrantes à partir de motifs fréquents sans énumération exhaustive

نویسندگان

  • Arnaud Giacometti
  • Arnaud Soulet
چکیده

Résumé. La détection de données aberrantes (outliers) consiste à détecter des observations anormales au sein des données. Durant la dernière décennie, des méthodes de détection d’outliers utilisant les motifs fréquents ont été proposées. Elles extraient dans une première phase tous les motifs fréquents, puis assignent à chaque transaction un score mesurant son degré d’aberration (en fonction du nombre de motifs fréquents qui la couvre). Dans cet article, nous proposons deux nouvelles méthodes pour calculer le score d’aberration fondé sur les motifs fréquents (FPOF). La première méthode retourne le FPOF exact de chaque transaction sans extraire le moindre motif. Cette méthode s’avère en temps polynomial par rapport à la taille du jeu de données. La seconde méthode est une méthode approchée où l’utilisateur final peut contrôler l’erreur maximale sur l’estimation du FPOF. Une étude expérimentale montre l’intérêt des deux méthodes pour les jeux de données volumineux où une approche exhaustive échoue à calculer une solution exacte. Pour un même nombre de motifs, la précision de notre méthode approchée est meilleure que celle de la méthode classique.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Apprentissage de la structure des réseaux bayésiens à partir des motifs fréquents corrélés : application à l'identification des facteurs environnementaux du cancer du Nasopharynx

Résumé. L’apprentissage de structure des réseaux bayésien à partir de données est un problème NP-difficile pour lequel de nombreuses heuristiques ont été proposées. Dans cet article, nous proposons une nouvelle méthode inspirée des travaux sur la recherche de motifs fréquents corrélés pour identifier les causalités entre les variables. L’algorithme opère en quatre temps : (1) la découverte par ...

متن کامل

Extension des bases de données inductives pour la découverte de chroniques

Résumé. Les bases de données inductives intègrent le processus de fouille de données dans une base de données qui contient à la fois les données et les connaissances induites. Nous nous proposons d’étendre les données traitées afin de permettre l’extraction de motifs temporels fréquents et non fréquents à partir d’un ensemble de séquences d’évènements. Les motifs temporels visés sont des chroni...

متن کامل

Nouvelle représentation concise exacte des motifs corrélés rares : Application à la détection d'intrusions

Résumé. La fouille des motifs corrélés qui sont très peu fréquents est une problématique de plus en plus intéressante dans la fouille de données. Dans ce cadre, les motifs corrélés rares selon la mesure de corrélation bond ont été étudiés dans un récent travail. La représentation concise exacte RMCR de l’ensemble de ces motifs a été alors proposée. Toutefois, aucun algorithme n’a été proposé po...

متن کامل

Vers une nouvelle approche d'extraction des motifs séquentiels non-dérivables

Résumé. L’extraction de motifs séquentiels est un défi important pour la communauté fouille de données. Même si les représentation condensées ont montré leur intérêt dans le domaine des itemsets, à l’heure actuelle peu de travaux considèrent ce type de représentation pour extraire des motifs. Cet article propose d’établir les premières bases formelles pour obtenir les bornes inférieures et supé...

متن کامل

Apprentissage de signatures de facteurs de transcription à partir de données d'expression

Résumé. L’inférence de signatures de facteurs de transcription à partir des données puces à ADN a déjà été étudié dans la communauté bioinformatique. La principale difficulté à résoudre est de trouver un ensemble d’heuristiques pertinentes, afin de contrôler la complexité de résolution de ce problème NP-difficile. Nous proposons dans cet article une solution heuristique alternative à celles uti...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2016